LLM as a judge

LLM-as-a-Judge をサーベイする

Potential and Perils of Large Language Models as Judges of Unstructured Textual Data

LLM as a judge をうまくやるコツは、ジャッジさせる項目と正答を類似度なり正規表現なりで明確に人間の評価と LLM の評価の差分を出して、プロンプトをその差分が小さくなるように調整することだと思う by ぬこぬこさん

Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge